颜水成团队等联合发布PaDT多模态大模型:实现真正多模态表征输出
近年来,多模态大语言模型(Multimodal Large Language Models, MLLMs)在图文理解、视觉问答等任务上取得了令人瞩目的进展。然而,当面对需要精细空间感知的任务 —— 比如目标检测、实例分割或指代表达理解时,现有模型却常常「力不从
近年来,多模态大语言模型(Multimodal Large Language Models, MLLMs)在图文理解、视觉问答等任务上取得了令人瞩目的进展。然而,当面对需要精细空间感知的任务 —— 比如目标检测、实例分割或指代表达理解时,现有模型却常常「力不从
近年来,国家对"人工智能+"战略持续推进,AI大模型发展进入快车道,成为推动新一轮人工智能产业变革的重要引擎。阿里巴巴近期一次性更新了三个大模型,开源全模态大模型Qwen2-Omni、开源图像编辑大模型Qwen2-Image-Edit,以及不开源的语音识别大模
在当今数字化时代,AI搜索已成为用户获取信息的重要途径。数据显示,2025年全球AI搜索生态迎来爆发式增长,82%的消费者通过AI大模型获取品牌信息,而传统搜索引擎的转化率已下降42%。企业若无法适应这一变革,将面临流量断崖式流失的风险。因此,选择一家专业的A
10月15日,百度搜索宣布全面升级文心助手AIGC创作能力,支持AI图片、AI视频、AI音乐、AI播客等8种模态创作,且能够一键调用多工具解决多场景问题。据称,截至目前,百度搜索用户日均生成AIGC内容已破千万。此外,百度搜索还发布开放式实时互动的数字人智能体
在DACon大会前夕,格灵深瞳技术副总裁冯子勇博士分享了其团队在多模态AI落地实战中的核心洞察与技术突破。面对CLIP等通用模型在城市级安防中面临的数据分布差异、中文组合语义理解等挑战,团队探索出一条“先做强单模态,再对齐多模态”的高效路径。
看完一部喜欢的动漫,总会心血来潮地想去 “圣地巡礼”;刷到别人剪辑精美的旅行 vlog,也会忍不住收藏起来,想着哪天亲自走一遍同样的路线。旅行与影像的结合,总是能勾起人们的探索欲望。那么,如果 AI 能自动看懂这些旅行视频,帮你解析出 “去了哪些地方”“顺序是
2023年12月27日互动易回复:公司子公司富春云科技现已基本建成超10000 组机柜,主要以对外租赁为主,现提供基础设施建设及运营等服务,目前主要服务对象包括网易、阿里等企业。
随着NanoBanana、Sora2的相继火爆、多模态模型领域烽烟再起,OpenAI与谷歌这一对宿敌纷纷摆好了姿态要在2025年年底各放大招。
gemini 模态 推理 体素 gemini3pro 2025-10-15 13:50 4
在过去的十年里,这句话被超过800万用户呼唤了整整200亿次。它成为了中国智能汽车发展史上的一个标志性符号,象征着语音交互的普及。尽管多屏联动、语音控制已成为行业范本,但从“能用”到“好用”之间,似乎总隔着一道无形的墙,语音唤醒既是一个时代的符号,也成为了一种
2020年9月1日招股书显示公司智慧教学解决方案以公司自行研发的互动教学网关、常态化录播、流媒体服务器等设备为核心,开发了移动课程中心、同步课堂、常态化录播、移动听课评课、互动教学教研等各种功能模块。
最近AI圈出了个大新闻,OpenAI前核心、ThinkingMachinesLab的联合创始人AndrewTulloch,两个月前还拒绝了扎克伯格15亿的薪酬包,转头就离职创业公司去了Meta。这事儿一出来,网友都炸了,要知道ThinkingMachinesL
在人工智能快速发展的今天,我们见证了一个令人兴奋的突破。ByteDance Seed团队的研究人员陆彦佐、夏鑫、张曼琳、匡华峰、郑坚彬、任雨夕和肖雪峰在2025年9月发表了一项开创性研究,提出了名为Hyper-Bagel的统一加速框架。这篇论文发表在arXiv
近日,一篇由华人研究团队撰写的论文冲上Hugging Face论文日榜前三,并提出了一条让VLM模型摆脱人工标注、靠自己进化的新路。
作为一家专注于大模型垂直应用的人工智能企业,蜜度乘着互联网时代的东风,在2009年进入舆情分析行业,并通过对相关产业的持续深耕,在AI时代已然成为舆情、校对、办公等细分领域的领先企业。
2025年借助AI工具创办一人公司,核心在于通过技术整合实现“一个人=一支团队”的效能。以下是覆盖从市场分析到运营管理全流程的常用工具及应用场景,结合真实案例与技术趋势,帮助你构建高效工具链:
辅助驾驶从可用迈向好用,在消费者购车决策中的权重越来越高。成熟的方案也带来成本下探的机会,L2+撕掉高端车型专属标签,向中低端市场普及,让“平权”从口号宣传变成行业共识。
今年9月,一批AI社交公司发布关停或通知,这之中,既包括大模型明星公司、社交公司等中型企业,如阶跃星辰To C产品「冒泡鸭」、Soul旗下的AI应用「异世界回响」等,也包括一批垂直领域的初创产品,如定位AI情感分析的Lumi、由前苹果设计师Jason Yuan
医疗AI系统面临的新威胁:数据中毒攻击在医疗AI领域,检索增强生成(RAG)系统已经成为减少"幻觉"(hallucinations)——即模型生成看似合理但实际错误的医疗信息——的关键技术。RAG通过从外部知识库检索相关的医学图像和文本来增强生成过程,提供更准
在2025年中国国际信息通信展期间,由北京通用人工智能研究院和中国信息通信研究院联合主办的5G-A与AI产业深度发展论坛在北京召开。本次论坛以“解锁5G-A新价值,共享移动AI时代红利”为主题,邀请产业组织、运营商、设备商、行业应用伙伴等产学研各界专家,5G-
10月10日,vivo在深圳国际会展中心举办2025开发者大会,作为vivo年度技术战略的重要发布窗口,本届大会以“同心·同行”为主题,全面展示了vivo在蓝心智能战略、OriginOS 6、蓝河操作系统3(BlueOS 3)及生态合作、安全、人文等领域的最新